Source | # of sentences | Average logarithmic rank |
---|---|---|
http://ba.wikipedia.org/wiki/Ләмәҙ_(ауыл),_Дыуан_районы | 14 | 5.97 |
http://ba.wikipedia.org/wiki/Дәүләкән_районы | 14 | 6.10 |
http://ba.wikipedia.org/wiki/Баймаҡ_(ҡала) | 14 | 6.11 |
http://ba.wikipedia.org/wiki/Эсперанто_теле | 27 | 6.12 |
http://ba.wikipedia.org/wiki/Искәндәр_Зөлҡәрнәй | 91 | 6.19 |
http://ba.wikipedia.org/wiki/Нейтраль_Мореснет | 32 | 6.21 |
http://ba.wikipedia.org/wiki/Башҡорт_әлифбаһы | 11 | 6.21 |
http://ba.wikipedia.org/wiki/Яңауыл_(ҡала) | 20 | 6.25 |
http://ba.wikipedia.org/wiki/Башҡортостан_ауылдары | 43 | 6.29 |
http://ba.wikipedia.org/wiki/Клеопатра_VII | 73 | 6.31 |
http://ba.wikipedia.org/wiki/Жанна_д’Арк | 89 | 6.34 |
http://ba.wikipedia.org/wiki/Сәғит_Агиш | 11 | 6.35 |
http://ba.wikipedia.org/wiki/Сыңғыҙхан | 146 | 6.36 |
http://ba.wikipedia.org/wiki/Бөйөк_депрессия | 147 | 6.40 |
http://ba.wikipedia.org/wiki/Сәлимов,_Ниязбай_Булатбай_улы_(Нияз_Сәлимов) | 14 | 6.44 |
http://ba.wikipedia.org/wiki/Өфө_эсперанто_клубы | 16 | 6.44 |
http://ba.wikipedia.org/wiki/Джордж_Вашингтон | 132 | 6.44 |
http://ba.wikipedia.org/wiki/Ғарипов,_Рәми_Йәғәфәр_улы | 27 | 6.45 |
http://ba.wikipedia.org/wiki/Башҡорттар | 12 | 6.45 |
http://ba.wikipedia.org/wiki/Хисмәтулла_нәҫеле_* | 13 | 6.45 |
http://ba.wikipedia.org/wiki/Ырымбур_экспедицияһы | 29 | 6.46 |
http://ba.wikipedia.org/wiki/Исаак_Ньютон | 15 | 6.49 |
http://ba.wikipedia.org/wiki/Ризаитдин_Фәхретдинов | 22 | 6.49 |
http://ba.wikipedia.org/wiki/Юлаев,_Салауат_Юлай_улы | 59 | 6.49 |
http://ba.wikipedia.org/wiki/Мәсетле_районы | 42 | 6.49 |
http://ba.wikipedia.org/wiki/Ҡыҙыл_Байраҡ_ордены | 19 | 6.51 |
http://ba.wikipedia.org/wiki/«Еңеү»_ордены | 16 | 6.51 |
http://ba.wikipedia.org/wiki/Ленин_ордены | 11 | 6.53 |
http://ba.wikipedia.org/wiki/Термодинамика_тарихы | 50 | 6.54 |
http://ba.wikipedia.org/wiki/Ләмәҙ-Тамаҡ_(ауыл) | 26 | 6.54 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
http://ba.wikipedia.org/wiki/Ҡырымтатар_халҡының_Милли_Гимны | 29 | 7.95 |
http://ba.wikipedia.org/wiki/Ҡырымтатар_теле | 21 | 7.80 |
http://ba.wikipedia.org/wiki/Азатлыҡ_статуяһы | 12 | 7.60 |
http://ba.wikipedia.org/wiki/Һағыҙ | 24 | 7.47 |
http://ba.wikipedia.org/wiki/Кәкүк_сәйе | 12 | 7.34 |
http://ba.wikipedia.org/wiki/Һабантуй | 16 | 7.30 |
http://ba.wikipedia.org/wiki/Һаҡмар_(йылға) | 19 | 7.29 |
http://ba.wikipedia.org/wiki/Гиппократ | 14 | 7.20 |
http://ba.wikipedia.org/wiki/Ҡарабалыҡ | 13 | 7.20 |
http://ba.wikipedia.org/wiki/Ҡошсо_(ҡәбилә) | 12 | 7.15 |
http://ba.wikipedia.org/wiki/Асылыкүл_(күл) | 11 | 7.13 |
http://ba.wikipedia.org/wiki/Ғатауллин_Нурыйәхмәт_Ғатаулла_улы | 31 | 7.12 |
http://ba.wikipedia.org/wiki/Безелдәк | 15 | 7.11 |
http://ba.wikipedia.org/wiki/Изге_Валентин_көнө | 20 | 7.11 |
http://ba.wikipedia.org/wiki/Ниғмәтуллин_Эльбрус | 18 | 7.09 |
http://ba.wikipedia.org/wiki/Джорджано_Бруно | 33 | 7.08 |
http://ba.wikipedia.org/wiki/Әхмәҙуллин,_Вафа_Мостафа_улы | 15 | 7.06 |
http://ba.wikipedia.org/wiki/Кармен_(опера) | 18 | 7.06 |
http://ba.wikipedia.org/wiki/Туғаҙаҡ | 19 | 7.03 |
http://ba.wikipedia.org/wiki/Туймазы_(ҡала) | 16 | 7.02 |
http://ba.wikipedia.org/wiki/Бурыш | 13 | 7.01 |
http://ba.wikipedia.org/wiki/Ғабдулла_Туҡай | 56 | 7.00 |
http://ba.wikipedia.org/wiki/Нәжиб_Асанбаев | 22 | 6.99 |
http://ba.wikipedia.org/wiki/Йылайыр_районы | 23 | 6.99 |
http://ba.wikipedia.org/wiki/Ғәйетбаев,_Наил_Әсхәт_улы | 36 | 6.98 |
http://ba.wikipedia.org/wiki/Ҡаҙылыҡ | 12 | 6.97 |
http://ba.wikipedia.org/wiki/Микеланджело | 29 | 6.96 |
http://ba.wikipedia.org/wiki/Умартасылыҡ | 11 | 6.94 |
http://ba.wikipedia.org/wiki/Ҡымыҙ | 27 | 6.93 |
http://ba.wikipedia.org/wiki/Ғәлләмов,_Салауат_Абдрахман_улы | 27 | 6.93 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words